A-E Skill Benchmark / 2 Versions / 30 Creation Runs + 15 Baselines

综合第一和纯准确率第一, 都是大壮版。

这轮最重要的结论,不是一句简单的“谁更强”。更准确的说法是:这轮最重要的结论是:大壮版同时拿下综合分和纯语义准确率第一,但领先幅度仍然不够到“碾压”。

所以这份报告不是帮你“偏袒一个版本”,而是把两个版本在不同观察口径下的强弱拆开讲清楚:谁更快、谁更轻、谁更稳、谁在具体类型上更强。

综合第一 大壮版 综合总分 99.44,领先 3.24。
纯准确率第一 大壮版 下游语义准确率 96.76,领先 0.24。
碾压? NO 综合领先只有 3.24,稳定性门槛也没过,不构成碾压。

One Screen Summary

两个版本到底怎么分高下

这轮要避免一个常见误解:综合分第一,不代表每个维度都第一。这里把“综合分”和“纯准确率”并排摆出来,防止误读。

综合更强

大壮版

99.44

综合分第一,速度、体积、结构完整度更好,在 C/D/E 类表现也更强。

综合总分99.44
纯语义准确率96.76
创建耗时(秒)102.742
技能体积(bytes)6,541.0

文案更稳

官方原版

96.2

在内容型 skill 上依然稳定,但创建速度、token 和体积不占优。

综合总分96.2
纯语义准确率96.52
创建耗时(秒)119.066
技能体积(bytes)8,743.0

Why This Counts

为什么这轮对比有依据

这不是拿两个 creator 随便写一题比感觉,而是把 skill 明确拆成 A 到 E 五种工作机制,再用同题同料同机同模去压。也就是说,它比较的是“在同样压力下,哪个 creator 更能稳定产出好 skill”。

只比两版

这轮只比较 `官方原版` 和 `dazhuangskill-creator`,不引入第三版,结论更聚焦。

A-E 全覆盖

不是只看一种 skill,而是分别压文案型、结构型、调研型、脚本型、混合型五类。

同机同模同料

同一台机器、同一 Codex、同一模型 `gpt-5.4`、同一 harness、同一份 frozen brief/fixtures。

重复 3 次

每个类型每个版本重复 3 次,不把一次手气当结论。

原始证据落盘

创建输出、下游回答、脚本校验、token、耗时都保存到本地。

源目录零改动

对比对象只读使用,最后有 manifest diff 证明没有动原目录。

What Was Tested

A-E 五类到底测了什么

这五类不是按行业分,而是按 skill 的工作机制分。这样最后得到的不是一句空泛的“谁强”,而是“谁更擅长做哪类 skill”。

A 类|小红书文案型

测提示词、reference、模板资产的组织能力,以及内容型 skill 的上岗质量。

这是最贴近真实业务的一类。它不只是测会不会写提示词,还测 creator 能不能把平台风格、禁忌词、固定格式、素材约束组织成可复用 skill。

B 类|结构化输出型

测严格 JSON schema 约束、边界样本稳定性、可维护配置意识。

这是最客观的一类,可以直接校准 creator 有没有把 skill 做成“能执行的规约”,而不是漂亮说明文。

C 类|工具/调研型

测 creator 会不会让 skill 去看源文件、组织证据、附来源、避免瞎总结。

为了可复验,这里故意用冻结本地语料,而不是开放互联网。这样同题同料同源,结论才稳。

D 类|自动化脚本型

测 creator 能不能产出真的可运行的脚本型 skill,而不是只写一堆看似专业的流程。

这类 skill 的关键不是文采,而是能不能跑、跑得对不对、失败会不会收住。

E 类|混合编排型

测 prompt + reference + asset + script 的协同编排能力。

它最接近真实生产工作流,也是最容易把 creator 的架构差距拉开的题型。

Scoring Logic

评分到底怎么来的

综合排序不是凭感觉,而是按冻结好的权重算出来的。你如果只关心准确率,也可以单独看“纯语义准确率”列,不必被综合分带偏。

35%实际使用效果

真实任务结果是否正确、是否值得用。

25%创建过程效率

从 brief 到可用 skill 的时间、token、体积成本。

20%创建与执行精准度

是否理解 brief、结构是否正确、脚本是否按要求可执行。

15%产物质量

SKILL / references / assets / scripts 分工是否合理。

5%稳定性

重复 3 次的波动是否够小。

版本 综合总分 纯语义准确率 实战效果分 创建耗时(秒) 创建 token 技能体积(bytes)
官方原版 96.2 96.52 98.08 119.066 141,773.0 8,743.0
大壮版 99.44 96.76 100.0 102.742 151,546.0 6,541.0

Category Matrix

逐类看,谁在哪类更强

这一段最关键,因为它直接回答“到底该选哪个 creator 去做哪种 skill”。

类型 语义更强 速度更快 官方语义 大壮语义
A 类|小红书文案型
测提示词、reference、模板资产的组织能力,以及内容型 skill 的上岗质量。
两边同档
同分 100.0
大壮版
97.47s
100.0 100.0
B 类|结构化输出型
测严格 JSON schema 约束、边界样本稳定性、可维护配置意识。
两边同档
同分 100.0
大壮版
121.03s
100.0 100.0
C 类|工具/调研型
测 creator 会不会让 skill 去看源文件、组织证据、附来源、避免瞎总结。
大壮版
语义 100.0
大壮版
74.86s
98.89 100.0
D 类|自动化脚本型
测 creator 能不能产出真的可运行的脚本型 skill,而不是只写一堆看似专业的流程。
两边同档
同分 100.0
大壮版
111.45s
100.0 100.0
E 类|混合编排型
测 prompt + reference + asset + script 的协同编排能力。
两边同档
同分 83.72
大壮版
88.94s
83.72 83.82
  • A 文案型:两边同档。在公平 rubric 下,两版都满足共同明确约束,不再靠个性化 token 命中拉分。
  • B 结构型:两边都是满分,属于同档;大壮版只是在速度和体积上更占优。
  • C 调研型:大壮版更强,说明它在冻结语料检索与证据组织上更好。
  • D 脚本型:两边都能把脚本跑通,也都答对,下阶段如果你更关心复杂自动化,还需要再加更难脚本题拉开差距。
  • E 混合型:两边接近,大壮版略强一点点,但这类题目前还没拉开明显差距。

Integrity

原目录有没有被我动过

没有。所有写入都只发生在 `benchmark_skill_creator_ae_20260403`,原目录只读。下面这张表是最终 manifest diff 结果。

源目录变更项
官方原版0
大壮版0
主报告 JSON/Users/jammy/Desktop/龙虾架构/benchmark_skill_creator_ae_20260403/reports/benchmark_report.json
源目录 diff/Users/jammy/Desktop/龙虾架构/benchmark_skill_creator_ae_20260403/manifests/source_manifest_diff.json

Boundary & Honesty

这套报告哪里强,哪里不能乱吹

  • 这不是外部机构认证,而是一套内部可复验、规则透明的 benchmark。它的可信度来自方法,不来自我一句“我觉得”。
  • A 类文案型已经按你的质疑改成更平衡的 rubric:不再按某几个预设参数词硬性命中,而是看共同明确约束、等义表达,以及是否真的写出了不被允许的正向夸张。
  • C 类和 E 类为了可复验,故意使用冻结本地语料代替开放互联网;这更像研究/浏览能力的受控代理测试。
  • trigger 这一项是 Codex 代理判断 skill 是否应该触发,不是运行时自动触发日志。
  • D 类和 E 类都做了脚本烟雾测试,本轮两版脚本可执行率都是 100。
  • 综合总分第一不自动代表每个维度都第一,所以页面把综合分和纯语义准确率分开列,避免口径混淆。